花1块钱就有上万篇内容,新晋AI顶流把价格打下来了
字节发布豆包大模型,
直接拿出了一个全家桶
用户可以选择不同题材的AI故事进行尝试,其中的AI NPC拥有不同的性格,并且会按照相应的人设进行“表演”,会根据我们的回答不同,解锁不同的剧情发展。
在昨天的大会现场,谭待演示了让大模型扮演一个教四川话的老师,在线解答四川话“耙耳朵”。
在角色扮演模型的助力下,用户可以捏出不同的角色智能体,校园、霸总、年下男、御姐信手拈来......
2. 语音识别、合成、复刻,AI情绪表达新阶段
而让角色扮演更真实,语音功能是与AI交互过程中非常重要的一环。像此前让人上头的Dan模式,其语音能力为他“渣男”的形象增色不少。可以说,好的语音交互能够显著提升用户体验。
谭待接受采访时表示,语音做得好不好,对于整个交互体验影响非常大。所以字节在语音上花了非常多的精力。
而此次发布的豆包语音识别、合成、声音复刻模型,让AI情绪表达又上升了一个台阶。
比如,会主动跟我们分享学习到的关于“宇宙”的新知识。如果我们表现出兴奋,那么豆包也会在交流过程中提升音调,传递出喜悦的情绪。
是不是更像真人了?
大模型能够捕捉用户的情感,再用对应的情感模拟表达出来。谭待还让豆包复刻了自己的声音,并改变了语种,会说英语和日语的“AI谭待”就这样出现在了现场。
豆包App也上线了声音复刻功能,可以创建自己的声音,并生成不同语种的声音分身,再也不怕自己学的是“哑巴外语”。
总的来说,和豆包语音聊天的过程中,你会感受到她在回答、语气和情绪方面越来越像真人。当前,各家科技大厂都奔着打造一个真实世界的“Her”,OpenAI推出的GPT-4o甚至可以视频通话,实时分析使用者的面部情绪,语音可能是未来和AI交互的新趋势。
上述这些只是基于豆包大模型的部分使用场景。字节跳动产品战略副总裁朱骏认为,大模型会变成越来越多的产品,供越来越多用户使用。
根据火山引擎官方数据,经过一年时间的迭代,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,日均处理1200亿Tokens文本,生成3000万张图片。
左手豆包右手扣子,
超级AI工厂雏形初现
图片来源:特工宇宙;扣子图像流
“先用起来再发布”,字节的AI打法
基于豆包大模型家族进行应用形态的探索,寻找更多AI落地场景,先去贴近用户,这或许是字节比较明确的思路。
和其他大模型公司“先发布,再陆续推出应用”恰恰相反,字节是让用户用起来了,再进行全面发布。正如谭待在发布会开头所说,“只有最大的使用量,才能磨出最好模型”。
但“磨”需要时间,AI时代多模态技术迭代是非常快的。值得一提的是,OpenAI和谷歌都在前两天相继更新了自己的模型,作为国内备受关注的大模型企业,字节跳动的豆包大模型家族看上去有些“姗姗来迟”。
在会后接受采访时,谭待也透露了豆包大模型此时才正式发布的原因。
“实事求是讲,OpenAI仍然是全球第一,要承认差距。但是字节跳动的大模型仍然在不断进化。目前不光是豆包大模型能力到位了,也已经有一些最佳实践案例出现,能够告诉大家怎么做AI应用,体验和用户量都在不断提升。”
以使用量来优化大模型的前提是,有足够好用可用的AI应用。越来越多开发者做更多的应用,再反过来驱动技术优化,形成正循环。
「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看
一起研究AI